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摘 要 : 以 数据 分 析 需 求 的 视角 描述 了 新 媒体 数据 采集 目标 的 设 定 及 采集 方式 ; 在 介绍 以 促进 质量 与 效率 为 目的 的 新 媒体 数 
据 预 处 理 之 后 ， 以 实例 化 方式 着 力 阐 述 了 给 阵 分 析 法 、 相 关 性 分 析 法 及 回归 分 析 法 为 代表 的 统计 分 析 和 BP 神经 网 络 为 代表 
的 算法 模型 等 经 典 分 析 方 法 的 概念 、 原 理 及 实现 方法 ; 讲述 针对 海量 数据 的 大 数据 分 析 功 能 及 基于 Hadoop 的 KNN 分 类 算 
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法 的 应 用 设计 ， 为 新 媒体 运营 企业 从 容 应 对 新 媒体 数据 分 析 提 供 了 理论 依据 和 技术 支撑 。 
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导语 
新 媒体 时 代 背 景 下 ， 外 部 信息 除 传 统 意 义 上 需要 便 
捷 快 速 获 取 外 还 被 附加 了 高 效 处 理 与 分 析 、 精 准 投 放 、 服 
务 运营 等 要 求 ， 这 对 国家 、 企 业 力 至 个 人 至 关 重 要 。 新 媒 
体 与 云 计算 、 大 数据 、 人 工 智 能 等 现代 技术 的 深度 融合 为 
社会 提供 了 更 加 优质 的 数据 应 用 及 智能 服务 ， 为 新 媒体 运 
营 企 业 找 准 方 向 、 降 低 成 本 、 规 划 议 案 提 供 了 可 靠 依 据 。 
1. 新 媒体 数据 采集 
1.1 设 定 采集 目标 

在 当前 新 媒体 数据 呈现 海量 的 情况 下 ， 采 集 前 必须 
依据 数据 分 析 的 需求 来 界定 采集 目标 、 设 置 采 集 范 围 、 
排除 元 余数 据 以 增强 数据 的 代表 性 与 可 信和 度 。 从 现实 问 
题 中 找 出 解决 问题 的 关键 节点 ， 提 取 相 关 事 务 的 特征 属 
性 ， 依 据 特征 属性 规划 数据 分 析 方 向 、 提 炼 采集 目标 。 
1.2 数据 来 源 及 采集 
新 媒体 数据 一 般 是 在 社会 生产 、 管 理 、 运 营 过 程 中 
产生 的 ， 因 而 主要 来 源 于 网 络 数据 库 、 社 交 媒 体 、 网 络 
盘 情 及 系统 运行 日 志 等 方面 。 新 媒体 数据 采集 本 质 上 是 
依据 新 媒体 数据 来 源 运 用 多 种 方式 收集 ， 一 般 使 用 运营 
方 〈 或 管理 方 ) 的 数据 库 及 第 三 方 平 台数 据 两 种 方式 。 
两 者 常见 于 从 运营 系统 的 服务 器 直接 获取 和 网 络 中 使 用 
智能 候 虫 技术 进行 云端 采集 , 达到 数据 实时 汇集 的 目标 。 
此 外 手工 问卷 调查 作为 前 两 者 的 补充 有 利于 调查 者 与 受 
访 者 现场 沟通 、 精 准 把 握 受 访 者 的 心理 特征 ， 从 而 明确 
受 访 者 的 需求 。 
2. 新 媒体 数据 预 处 理 

数据 预 处 理 是 指 在 数据 主要 处 理 与 分 析 前 进行 的 加 
工整 理 ， 达 到 清理 异常 、 纠 正 错误 、 统 一 格式 等 目标 ， 


使 用 数据 清洗 、 数 据 集成 、 数 据 变换 等 方法 提高 了 数据 
分 析 的 质量 与 效率 。 其 中 的 数据 清洗 现 已 成 为 大 数据 预 
处 理 的 常用 方法 ， 主 要 实现 删除 重复 信息 、 纠 正 存在 的 
错误 ， 提 供 数据 一 致 性 等 目标 。 
3. 新 媒体 数据 分 析 

新 媒体 数据 分 析 是 指 用 适当 的 分 析 方 法 对 大 量 新 媒体 
数据 进行 剖析 与 加 工 ， 使 其 易于 理解 并 反映 数据 信息 所 代 
表 的 现实 事物 本 质 特征 及 内 在 规律 ， 以 最 大 限度 地 发 挥 数 
据 的 作用 。 常 用 经 典 的 分 析 方 法 有 操作 简洁 的 统计 分 析 、 
高 度 复杂 的 算法 模型 及 针对 海量 数据 的 大 数据 分 析 。 
3.1 统计 分 析 
3.1.1 撼 阵 分 析 法 

和 矩阵 分 析 法 是 以 待 分 析 数 据 的 两 个 重要 指标 作为 横 、 
纵 坐 标 轴 构成 四 个 象限 来 分 析 问 题 ， 提 出 解决 问题 的 合 
理 方 法 并 汲取 数据 分 析 结 论 。 以 Kano 模型 为 代表 的 矩阵 
分 析 法 如 图 1 所 示 。 


图 1 矩阵 分 析 法 Kano 模型 


基金 项 目 : 山西 省 教育 科学 “十 三 五 ”规划 项 目 ， 项 目 编号 : GH-19125。 吉 林 省 吉林 市 社 科 联 项 目 ， 项目 编 号 : 


19101。 
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模型 中 的 兴奋 型 需求 是 用 户 完全 意 想不到 的 或 处 
于 潜意识 状态 中 的 、 需 要 挖掘 与 洞察 的 需求 ， 当 此 需 
求 被 提供 后 ， 用 户 会 产生 意外 惊喜 进而 表现 出 非常 满 
意 ， 若 不 能 提供 则 满意 度 会 下 降 。 期 望 型 需求 作为 一 
维 因 素 与 满意 度 成 正比 ， 它 是 成 长 期 的 需求 ， 客 户 、 
竞争 对 手 和 运营 企业 自身 都 需 关 注 的 需求 ， 它 体现 了 
竞争 能 力 , 运营 企业 应 注重 提高 此 类 需求 的 服务 质量 。 
基本 型 需求 是 用 户 对 产品 的 必 备 需求 ， 要 求 服 务 产 品 
必须 具有 相关 功能 ; 当 不 断 强化 产品 功能 后 ， 用 户 满 
意 度 不 会 显著 提升 ， 若 消除 此 产品 功能 ， 用 户 满意 度 
将 明显 下 降 。 作 为 用 户 完 全 不 需要 的 反 向 因素 与 用 户 
满意 度 成 反比 。 所 以 在 设计 产品 期 间 ， 尽 量 避 免 反 向 
因素 的 出 现 ， 做 好 基本 型 需求 、 不 断 完 善 期 望 型 需求 
的 质量 ， 突 出 兴奋 型 需求 。 

Kano 模型 调研 的 每 个 功能 需求 都 有 正 向 和 负 向 两 
种 评价 ， 依 据 每 种 功能 的 需求 可 按 喜欢 、 理 应 如 此 、 勉 
强 接受 、 我 不 喜欢 四 个 值 进行 评价 形成 二 维 表 ， 折 算 
Better-Worse 系数 ，Better 系数 表示 满意 系数 ， 常 为 正 
值 ，Worse 系数 表示 为 不 满意 系数 ， 常 为 负 值 。 图 2 是 
Better-Worse 系数 对 应 的 需求 分 析 ， 可 见 第 一 象限 内 产品 
功能 1 是 期 望 型 需求 最 优 的 ， 可 以 优先 做 。 
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图 2 Better-Worse 系数 对 应 的 需求 分 析 


Kano 模型 需要 结合 业务 的 本 身 特征 来 构建 ， 否 则 
得 出 的 分 析 结 论 可 能 与 实际 情况 存在 较 大 偏差 ， 这 就 需 
要 问卷 调查 设计 的 问题 能 够 精准 反映 产品 的 特性 及 寻找 
合适 的 问卷 服务 对 象 。 另 外 需要 注意 的 是 ， 某 种 类 型 的 
需求 会 随 着 时 间 的 推移 而 演变 成 另 一 种 类 型 的 需求 。 因 
此 ， 需 要 持续 调研 需求 ， 并 依据 数据 分 析 结 果 更 新 产品 
特性 。 
3.1.2 相关 性 分 析 法 

相关 性 分 析 是 用 来 衡量 两 个 或 多 个 变量 因素 间 相 关 
密切 程度 的 , 相关 性 不 等 价 于 因果 关系 ,在 新 媒体 营销 
可 以 通过 比较 两 个 商品 的 相关 关系 强 弱 来 选择 是 否 进行 
组 合 销售 。 门 

图 3 是 运用 Excel 中 的 CORREL 函数 对 在 2021 年 
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1 月 1 日 至 6 日 期 间 书 籍 A 销售 数量 与 书籍 B 至 书籍 G 
销售 数量 相关 性 系数 计算 结果 。 相 关 性 系数 取 值 范围 为 
[-1, 1], 其 绝对 值 越 大 , 相关 程度 越 大 , 由 计算 结果 可 知 ， 
书籍 A 与 书籍 D 的 相关 性 系数 最 高 ， 为 0.821326501， 
此 两 者 搭 售 可 激发 用 户 更 多 的 购买 行为 。 
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相关 性 系数 : 


图 3 相关 性 系数 计算 结果 


用 折线 图 来 呈现 , 很 直观 看 出 来 书籍 D 销售 量 总 体 
上 随 着 书籍 A 销售 量 的 增 大 而 增 大 ， 如 图 4 所 示 。 
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图 4 对比 折线 图 


3.1.3 回归 分 析 法 

回归 分 析 法 用 于 确定 因 变 量 与 自 变 量 的 关系 ， 建 立 
回归 方程 以 表达 相关 性 ， 可 以 预测 因 变 量 的 未 来 变化 。 
自 变 量 与 因 变量 可 以 不 只 一 个 ， 下 面 举例 说 明 。 
某 运 输 公 司 为 了 制定 优化 的 运输 计划 ， 为 了 确定 承 
接 的 运 货 量 希 望 能 够 预测 每 天 司机 的 工作 时 间 。 经 分 析 
发 现 司 机 每 天 工作 时 间 与 运输 距离 、 运 输 次 数 有 关 。 特 
此 采集 了 由 12 项 运输 活动 组 成 的 随机 样本 ， 并 依据 这 些 
数据 ( 如 表 1 所 示 ) 构建 二 元 线性 回归 方程 。 设 时 间 为 
因 变 量 ， 距 离 与 次 数 为 自 变 量 ， 利 用 Excel 回归 分 析 工 具 
对 回归 系数 进行 估算 , 得 到 的 回归 结果 摘要 如 图 5 所 示 。 
复 相 关系 数 R 为 0.9497， 说 明 时 间 与 运输 距离 及 次 数 高 
度 线性 相关 。 依 据 计算 结果 ， 可 以 得 到 回归 系数 和 回归 
方程 : 

y=—0.155+0.043x1+ 0.544x2 


表 1 运输 活动 随机 样本 


时 间 距离 次 数 时 间 距离 次 数 
93 160 4 6.2 28 2 
4.8 80 3 7.4 20 3 
8.9 161 4 6 05 4 
6.5 101 2 7.6 45 3 
4.2 80 2 6.1 45 1 
p92 96 3 9.0 50 5 
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SUNMARY OUTPUT 


回归 统计 
Wultiple R_ 0.9497421 
R Square “0. 90201005 
Adjusted R 0.8802345 
标准 误差 0. 58457752 


12 
方差 分 析 

nificance F 
回归 分 析 2 28. 31109 14.15554 41.42308 2. 89E-05 
残 差 9 3. 075578 0. 341731 
总 让 11 31.38667 


标准 误差 + Stat P-value Lower 95%Upper 95% 下 限 95. 0 上 限 95. 0% 


oefficients 

Intercept| -0.154937910. 780084 -0.19862 0.846977 -1. 91961 1.609735 -1. 91961 1.609735 
X Variabl4 0. 0431425310. 006295 6. 853921 7. 44E-05 0,. 028903 0, 057382 0. 028903 0. 057382 
X Variabls 0. 5443499310. 166343 3. 272463 0. 009645 0.168057 0. 920643 0. 168057 0. 920643 


图 5 回归 结果 摘要 


回归 系数 0.043 表示 在 固定 次 数 的 条 件 下 ， 运 输 距 
离 每 增加 1 公里 , 行驶 时 间 平 均 增 加 0.043 小 时 ; 回归 系 
数 0.573 表示 在 运输 距离 固定 时 ， 运 输 次 数 每 增加 1 次 ， 
时 间 平 均 增 加 0.544 小 时 。 某 司机 某 天 运输 5 件 货 ， 最 优 
路 线 总 长 为 150 公里 ， 通 过 回归 方程 y=-0.115+0.043 x 

150+0.544 x5 预测 运输 时 间 为 9.055 小 时 ， 与 采样 
数据 对 比 高 度 一 致 。 
3.2 复杂 模型 

相对 统计 分 析 而 言 ， 较 为 复杂 的 经 典 算 法 模型 有 决 
策 树 、 混 沌 理论 、 神 经 网 络 、 蚁 群 算法 及 粒子 群 算法 等 ， 
它们 主要 在 人 工 智 能 、 信 息 科学 、 控 制 论 、 机 器 学 习 等 
领域 用 于 描述 、 分 析 、 预 测 、 优 化 、 决 策 及 控制 等 方 
的 应 用 。 这 些 在 前 沿 科学 中 多 次 被 验证 正确 的 复杂 算法 
模型 对 于 新 媒体 数据 分 析 依 然 适 用 ， 如 《深度 神经 网 络 
视频 新 媒体 短视 频 个 性 化 推荐 系统 研究 》 等 相关 案例 ， 
下 面 以 BP 神经 网 络 为 例 来 描述 算法 模型 的 应 用 。 

BP 神经 网 络 全 称 为 误差 反 向 传播 神经 网 络 ， 在 多 层 
神经 元 网 络 中 增加 了 用 于 连接 权 值 的 隐 含 层 。BP 神经 元 
的 传递 机 数 可 采用 线性 函数 或 非 线性 函数 ， 能 盘 近 闭 区 
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图 7 某 服 务 系统 网 络 流量 负荷 预报 


负荷 数据 每 天 每 隔 2 小 时 测 得 一 次 ， 还 有 最 高 气 
温 、 最 低 气 温和 天 气 特 征 (0 晴天 、0.5 阴 天 、1 雨天 ) ， 
图 7 中 数据 已 经 归 一 化 ， 共 计 15 维 输入 向 量 (12 个 
网 络 负 荷 向 量 加 3 个 气象 特征 向 量 ), 12 维 输出 向 量 ( 12 
个 网 络 负荷 向 量 ) 。 因 此 ， 网 络 输入 层 有 15 个 神经 元 
用 X 描述 ， 输 出 层 有 12 个 神经 元 (激励 函数 为 对 数 函 
数 ) 用 站 描述， 隐藏 层 神经 元 个 数 设 定 为 31 (激励 函 
数 为 正切 函数 ) 。 训 练 神经 网 络 Y=F (X，W ) ， 得 到 
作为 权 值 的 允 集合 ， 再 用 M=F (K,，W ) 计算 M 得 到 
预测 结 
3.3 大 数据 分 析 

大 数据 分 析 用 来 对 具有 海量 规模 的 数据 进行 分 析 ， 
其 优势 为 快速 流转 数据 、 真 实 可 靠 。 数 字 化 新 媒体 下 的 
数据 分 析 技 术 能 够 成 为 人 工 智能 的 基础 。 与 统计 分 析 、 
算法 模型 不 同 的 是 大 数据 分 析 提 供 更 加 复杂 稳定 安全 的 
数据 分 析 系 统 体系 ， 具 备 数据 挖掘、 预测 性 分 析 、 数 据 
仓库 等 功能 。 


间 上 的 任何 连续 函数 ， 致 使 某 个 神经 元 的 输出 可 以 有 多 
值 选择 。BP 神经 网 络 包 括 输 入 层 、 隐 含 层 和 输出 层 。 输 
入 输出 向 量 间 的 非 线性 关系 可 由 隐 含 层 的 非 线性 函数 神 
经 元 加 以 描述 。 如 图 6 所 示 的 三 层 BP 神经 网 络 结构 中 ， 
隐 含 层 有 qd 个 神经 元 ， 输 出 层 有 工 个 神经 元 。 输 出 层 的 
误差 反 向 传播 可 调整 隐 含 层 和 输出 层 的 权 值 。 图 7 展现 
了 运用 BP 神经 网 络 对 某 服务 系统 网 络 流量 负荷 信息 预报 
的 情况 。 
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图 6 三 层 BP 神经 网 络 结构 


在 大 数据 应 用 系统 中 ，Hadoop 作为 处 理 大 数据 的 
分 布 式 存储 和 计算 框架 ,得 到 国内 外 大 、 中 、 小 型 企业 
的 广泛 应 用 。 中 其 核心 包括 可 扩展 、 高 容错 、 高 性 能 的 
HDFS 分 布 式 文件 系统 和 为 海量 数据 的 规则 提取 提供 并 行 
计算 框架 的 MapReduce。 在 Hadoop 框架 下 实现 KNN 机 
器 学 习 算 法 模型 变 得 更 加 方便 高 效 。 

对 一 个 样本 ， 在 特征 空间 中 的 K 个 最 相 邻 的 样本 
! 的 大 多 数 属 于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 类 别 ， 
并 具有 这 个 类 别 上 样本 的 特性 ， 这 是 KNN 算法 的 核心 
思想 。 此 方法 在 分 类 决策 上 只 依据 最 邻近 样本 的 类 别 来 
决定 待 分 样本 所 属 的 类 别 ,如 图 8 展示 了 KNN 分 类 原理 。 
图 中 有 两 种 类 型 的 样本 数据 ， 一 类 是 星 形 ， 另 一 类 是 椭 
圆 形 ， 圆 形 点 是 竺 分 类 数据 。K=3 时 ， 离 圆 形 点 最 近 的 
有 2 个 椭圆 形 和 1 个 星 形 ， 椭 圆 形 占 多 数 ， 那 么 待 分 类 
点 属于 椭圆 形 ; K=6 时 ， 离 圆 形 点 最 近 的 有 2 个 椭圆 形 
和 4 个 星 形 ， 星 形 占 多 数 ， 那 么 待 分 类 点 属于 星 形 。 
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图 8 KNN 分 类 原理 


当 参 与 训练 的 数据 海量 时 ， 由 于 单机 内 存 和 单机 计 
算 资源 有 限 ， 导 致 传统 KNN 算法 失效 ， 又 因 每 个 训练 样 
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本 不 受 其 他 训练 样本 影响 ， 所 以 KNN 能 够 被 MapReduce 
实现 。 MapReduce 中 最 核心 部 件 是 map 与 reduce 国 数 ， 

map 将 大 任务 划分 为 者 干 小 任务 ， 小 任务 能 够 同时 运 
行 ， 再 通过 reduce 将 多 个 小 任务 的 结果 汇总 起 来 。 对 于 
KNN， 训 练 数据 量 大 可 将 训练 数据 分 布 式 存储 读 和 信 map 
中 ， 在 map 中 每 输入 一 个 训练 样本 就 计算 它 和 所 有 测试 
数据 的 距离 并 传 到 reduce 中 ， 然 后 reduce 将 同一 个 测 
试 数据 的 距离 合并 然后 排序 计数 得 到 测试 样本 的 类 标识 
并 输出 。 由 于 Hadoop 的 MapReduce 计算 框架 遵循 key- 
value ( 键 值 对 ) 原则 , map 与 reduce 函数 设计 如 表 2 所 示 。 


表 2 map 与 reduce 函数 设计 


函数 名 称 任务 输入 数据 形式 输出 数据 形式 
<key， value> 键 值 对 <key, value> 键 值 对 
| 读 取 训练 集 ， 计 算 测 试 样本 与 每 个 训练 key: 训练 样本 行 号 key: 测试 样本 ID 
a 样本 之 间 的 相似 度 value: 训练 样本 ( 假设 每 行 对 应 一 个 训 | value: < 训练 样本 的 类 标识 ， 相 似 度 值 
练 样本 ) > 
<key，value> 键 值 对 <key，value> 键 值 对 
找 出 个 近邻 ,计算 多 数 类 的 类 别 ， 并 key: 测试 样本 ID key: 测试 样本 ID 
oe 将 其 赋予 测试 样本 value: iterator< 训练 样本 的 类 标识 ， 相 value: 测试 样本 的 类 标识 
似 度 值 > 


以 上 是 利用 Hadoop 实现 KNN 算法 的 应 用 设计 ， 达 
到 简洁 高 效 、 并 行 处 理 完 成 分 类 任务 的 目的 ， 此 种 方法 
在 新 媒体 中 适合 于 文本 分 类 、 熏 情 分 析 、 和 与 情 预测 等 关 
键 问题 的 解决 。 
结语 

综 上 所 述 ， 文 中 提 及 的 新 媒体 数据 分 析 方法 均 有 各 
自 特 征 ， 统 计 分 析 法 对 历史 数据 的 完整 性 和 准确 性 要 求 
较 高 ， 分 析 步 又 简单 、 容 易 掌 控 ; 复杂 模型 如 BP 神经 网 
络 具 有 超 强 的 学 习 能 力 与 容错 能 力 ， 能 够 处 理 复 杂 的 非 
线性 关系 ; 大 数据 分 析 提 出 了 针对 海量 数据 的 、 具 备 架 
构 体 系 规模 的 解决 方案 ， 兼 顾 规 范 性 的 同时 不 失 处 理 数 
据 的 灵活 性 ， 由 专业 人 士 完成 数据 分 析 过 程 。 为 此 ， 需 
要 依据 现实 问题 的 实际 情况 与 新 媒体 运营 企业 所 拥有 的 
资源 ， 合 理发 挥 各 自 长 处 ， 确 保 新 媒体 数据 分 析 结 果 的 
有 效 性 。 早 
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